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摘 要 : 异常 检测 在 现代 大 规模 分 布 式 系统 的 安全 管理 中 起 着 重要 作用 ， 而 网 络 流量 异常 检测 则 是 组 成 异常 检测 系 
统 的 重要 工具 。 网 络 流量 异常 检测 的 目的 是 找到 和 大 多 数 流 量 数据 不 同 的 流量 ， 并 将 这 些 离 群 点 视 为 异常 。 由 于 现 
有 的 基于 树 分 离 的 孤立 森林 (iForesb 检 测 方法 存在 不 能 检测 出 局 部 异常 的 缺陷 ， 为 了 克服 这 个 缺陷 ， 提 出 一 种 基于 
iForest 和 局 部 离 群 因 子 (LOF) 近 令 集 成 的 无 监督 的 流量 异常 检测 方法 。 首 先 ， 改 进 原始 的 下 orest 与 LOF 算法 ， 在 提 
升 检测 精度 的 同时 控制 算法 时 间 ; 然后 ， 分 别 使 用 两 种 改进 算法 进行 检测 ， 并 将 结果 进行 融合 以 得 到 最 终 的 检测 结 
果 ; 最 后 ， 在 自制 数据 集 上 对 所 提 方 法 进行 有 效 性 验证 。 实 验 结果 表明 ， 所 提 方 法 能 够 有 效 地 隔离 出 异常 ， 获 得 良 
好 的 流量 异常 检测 效果 。 
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Abstract: Absrtact: Anomaly detection plays an important role in the security management of modern large-scale distributed 
systems. Network traffic anomaly detection is an important tool of anomaly detection system. The purpose of network traffic 
anomaly detection is to find the data different from most data in the traffic log, and treat these outliers as exceptions. The 
existing Isolation Forest (iForest) method based on tree separation has a defect: it cannot detect local anomalies. In order to 
overcome the defect, this paper proposes an unsupervised traffic anomaly detection method based on iForest and local outlier 
factor (LOF) nearest neighbor integration. Firstly, it improves the original iForest and LOF algorithms to enhance the detection 
accuracy and control the algorithm time; Then, it uses the two improved algorithms to detect, and fuses the results of two 
algorithms to get the final detection result; Finally, the method is validated on the self-made data set. Experimental results 
show that the method can effectively isolate anomalies, and obtain good traffic anomaly detection effect. 

Key words: traffic anomaly detection; large scale multidimensional data; isolation forest; characteristic outlier coefficient; 
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= 测 。 但 由 于 聚 类 方法 不 是 专门 用 于 异常 检测 , 所 以 检测 效果 不 
0 引言 辐 
明显 。 

网 络 异常 流量 检测 通过 对 流量 的 检测 分 析 判 断 , 可 以 尽早 c) 使 用 基于 密度 的 方法 。 基 于 密度 的 方法 如 局 部 离 群 因子 


地 发 现 网 络 中 是 否 有 入 侵 行 为 , 为 网 络 安全 管理 提供 依据 , 因 ”算法 LOF, 通过 计算 一 个 数值 score 来 反映 一 个 样本 的 异常 程 
此 ,异常 流量 检测 逐渐 成 为 网 络 安 全 领域 的 研究 重点 趾 。 网 络 。 度 。LOF 算法 能 有 效 避 人 免 数 据 密度 分 布 不 同 对 检测 带 来 的 影 
流量 异常 检测 是 网 络 安全 领域 中 重要 的 一 部 分 ,传统 上 通常 使 。 响 。 但 LOF 算法 在 面 对 高 维 数据 时 效果 会 有 所 下 降 。 因 为 正 
用 关键 字 搜 索 或 规则 匹配 等 方法 手动 检查 流量 日 志 。 然 而 日 志 ” 常 的 数据 点 可 能 没有 足够 的 邻居 或 者 异常 点 有 很 多 的 邻居 ,这 
的 复杂 性 以 及 数据 量 的 增 大 使 得 人 工 检测 难以 进行 .因此 提出 。 样 计算 复 杂 度 以 及 定义 数据 之 间 的 距离 有 时 会 很 困难 。 
了 许多 基于 流量 日 志 的 异常 检测 方法 。 网 络 流量 异常 检测 的 目 由) 使 用 专门 的 异常 点 检测 算法 。 对 于 聚 类 算法 来 说 , 主要 
的 是 找到 流量 日 志 中 和 大 多 数 数据 不 同 的 数据 , 并 将 这 些 离 群 。 任务 还 是 将 数据 聚集 成 不 同 的 簇 ,检测 异常 点 只 是 一 个 附带 的 
点 其 视 为 异常 。 常 用 的 流量 异常 检测 算法 一 般 分 为 以 下 几 类 。 ”结果 ， 而 下 orest 算法 的 目的 就 是 专门 检测 异常 点 。 不 同 于 之 
a) 使 用 基于 统计 学 的 方法 。 这 种 方法 一 般 会 构建 一 个 概率 ” ”前 的 算法 先 寻 找 正常 的 数据 范围 ,然后 将 不 在 正常 区 域 的 点 视 
分 布 模型 , 并 通过 该 模型 计算 对 象 的 概率 , 把 具有 低 概 率 的 对 ”为 异常 点 。 下 orest 明确 地 隔离 异常 值 , 是 一 种 非常 有 效 的 异常 
象 视 为 异常 点 。 检测 算法 。 它 适用 于 高 维 数据 ， 但 是 它 分 割 的 过 程 是 随机 的 ， 
b) 使 用 基于 聚 类 的 方法 。 大 部 分 聚 类 算法 基于 数据 特征 的 ”这 会 导致 异常 检测 的 结果 不 稳定 。 正 orest 的 主要 优点 是 它 的 
分 布 将 数据 聚集 成 复 , 同样 也 被 用 于 单 维 或 多 维 数据 的 异常 检 ”线性 执行 时 间 , 这 使 得 它 与 其 他 方法 相 比 非常 有 效 , 因此 对 于 
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大 型 数据 集 的 挑战 是 一 个 非常 有 吸引 力 的 选择 。 下 orest 在 文 ”1.2 LOF 算法 


献 [2] 中 显示 出 在 高 维 数 据 集中 检测 全 局 异常 的 能 力 ， 并 且 检 LOF 通过 计算 一 个 数值 score 来 反映 一 个 样本 的 异常 程 
测 效果 可 以 与 LOFBI 和 ORCA 中 等 最 先进 的 方法 相 竞争 。 度 。 这 个 数值 的 计算 方法 是 : 一 个 样本 点 周围 的 样本 点 所 处 位 


本 文 结合 iForest 和 LOF 的 特点 ， 提 出 了 一 种 Fforest 和  ” 置 的 平均 密度 比 上 该 样本 点 所 在 位 置 的 密度 。 比 值 越 大 于 1， 
LOF 融合 的 改进 算法 来 进行 流量 异常 检测 。 首先 , 本 文采 用 改 。”” 则 该 点 所 在 位 置 的 密度 越 小 于 其 周围 样本 所 在 位 置 的 密度 ,这 
进 的 下 orest 算法 和 改进 的 LOF 算法 对 原始 数据 进行 检测 ; 然 。 个 点 就 越 有 可 能 是 异常 点 ,局 部 离 群 因子 算法 能 有 效 避 免 数 据 
后 , 对 两 种 算法 的 结果 进行 融合 。 与 现 有 的 基于 最 近邻 的 异常 密度 分 布 不 同 对 检测 带 来 的 影响 ， 但 由 于 计算 LOF 值 时 需要 
检测 器 (如 LOF) 不 同 ,该 算法 可 以 高 效 地 获取 离 群 值 。 文章 的 。” ”查找 每 个 数据 点 的 可 达 距 离 ， 导致 检测 成 本 非常 高 , 难以 满足 
其 余部 分 组 织 如 下 : 第 一 部 分 描述 了 相关 的 异常 检测 算法 。 第 对 高 维 数据 进行 高 效 检测 的 需求 。 
二 部 分 定义 了 一 种 方法 来 识别 异常 区 ,将 局 部 异常 与 全 局 异常 王 巨 濒 等 人 (2 针对 目前 台 区 线 损 异常 存在 的 判定 问题 ， 
区 分 开 来 ， 并 详细 介绍 了 所 提出 的 基于 iForest 和 LOF 的 流量 是 出 了 基于 KNN 和 LOF 算法 的 台 区 线 损 异常 检测 方法 ， 所 
异常 检测 方法 。 第 三 部 分 提供 了 实验 结果 与 评估 , 表明 所 提 方 是 出 的 方法 具有 良好 的 检测 性 能 。 但 该 方法 没有 与 其 他 算法 进 
法 可 以 有 效 地 处 理 大 型 数据 集 。 最后, 本 文 在 第 四 部 分 进行 了 行 比较 , 说 服 性 还 有 待 提 高 。 刘 芳 等 人 [3 提出 了 快速 的 Top-n 
总 结 。 局 部 离 群 点 检测 算法 (MTLOF), 但 没有 提升 算法 的 准确 率 。 曾 
1 ”相关 工作 冬 洲 等 人 04 应 用 主 成 分 分 析 法 和 LOF 相 结合 的 方法 设计 了 变 

压 器 异常 检测 模型 , 可 以 实现 动态 实时 数据 的 异常 检测 。 但 该 
1.1 iForest 算法 方法 没有 与 其 他 算法 进行 比较 , 说 服 性 还 有 待 提 高 。 司 方 远 等 

iForest 是 一 个 独特 的 异常 检测 器 ,因为 它 使 用 一 种 隔离 机 。 ”人 号 提出 一 种 基于 AP-LOF 离 群 组 检测 的 配 电网 连接 验证 方 
制 来 检测 异常 。 在 孤立 森林 中 ， 异 常 被 定义 为 “容易 被 孤立 的 。” 法 , 避免 了 判定 阔 值 对 检测 结果 的 影响 ,能 够 准确 有 效 地 对 台 
离 群 点 ”， 可 以 将 其 理解 为 分 布 稀疏 且 离 密度 高 的 群体 较 远 的 区 内 的 离 群 组 用 户 进 行 校 验 , 提高 了 配 电网 连接 验证 效率 。 但 
点 。 在 特征 空间 里 ,分布 稀疏 的 区 域 表示 事件 发 生 在 该 区 域 的 ”该 方法 只 与 LOF 算法 进行 实验 比较 ， 说 服 性 还 有 待 提 高 。Xu 
概率 很 低 , 因而 可 以 认为 落 在 这 些 区 域 里 的 数据 是 异常 的 。 孤 ”等 人 09 提 出 了 一 种 优化 方法 , 即 联合 调整 LOF 超 参数 上 进行 
立 森 林 是 一 种 适用 于 连续 数据 的 无 监督 异常 检测 方法 , 即 不 需 ” 离 群 点 检测 的 启发 式 策略 。 但 该 方法 不 能 保证 调整 后 的 参数 将 
要 有 标记 的 样本 来 训练 , 但 特征 需要 是 连续 的 。 该 算法 的 核心 使 精确 度 最 高 。 仇 开 等 人 07 提 出 一 种 加 权 LOF 结合 上 下 文 判 
是 由 若干 树 imee 组 成 的 森林 Forest 。iTree 是 一 棵 随机 二 又 树 ， 断 的 云 环境 中 服务 运行 数据 异常 检测 方法 , 能 够 有 效 检测 出 云 
为 了 构建 iTree ， 需 要 通过 随机 抽样 的 方式 从 数据 集 D 中 选取 环境 中 的 服务 运行 数据 异常 。 但 是 ,该 方法 在 的 真正 率 方面 没 
n 个 样本 构成 一 个 数据 子 集 PD ,然后 从 DPD={d,d3,……d,} 中 随机 ”有 提高 。 痪 赛 煤 等 人 [3 提出 了 一 种 基于 密度 空间 的 局 部 离 群 
选取 一 个 属性 X 和 一 个 分 离 值 2 ， 最 后 ， 根 据 属 性 X 的 值 对 ”因子 算法 LOFBDS, 有 良好 的 检测 效果 ,但 在 计算 和 时 间 消 耗 
每 个 数据 d; 进行 划分 ; 如 果 4d(X)<p, 则 将 数据 放 在 左 子 节点 ， 上 还 存在 优化 空间 。 
反之 , 将 数据 放 在 右 子 节点 。 在 这 种 模式 下 , 一 个 iTree 将 被 从 Ry i 
构成 ， 直 到 满足 以 下 任 一 条 件 : a) 树 达 到 了 限制 的 高 度 ; b ” 和 ”基于 iForest 和 LOF 的 流量 异常 检测 方法 
节点 上 只 有 一 个 样本 ; c) 节点 上 的 样本 所 有 特征 都 相同 。 在 。 2.1 数据 预 处 理 
这 种 随机 分 割 的 策略 下 ， 异 常 点 通常 具有 较 短 的 路 径 。iForest 本 方法 把 捕获 的 流量 数据 包 保 存 为 pcap 格式 的 本 地 文件 。 
有 时 间 复 杂 度 低 、 精 度 高 、 适 应 高 维 数据 的 优点 ,但 容易 丢 ”首先 对 截取 的 原始 pcap 包 进 行 预 处 理 ， 经 过 流 处 理 程序 后 


失 数据 局 部 密度 信息 , 因此 对 全 局 离 群 点 的 检测 优势 较 大 , 不 “pcap 文件 中 的 数据 包 (packet) 以 流 (flow) 为 单位 进行 归并 , 并 提 
寞 长 处 理 局 部 离 群 点 。 由 于 i7ree 的 结构 是 随机 的 ， 单 一 图 形 ” 取 流 的 若干 特征 存 成 csv 格式 的 流量 日 志 。 该 流量 日 志 中 包含 
的 结果 不 可 靠 ， 但 通过 大 量 的 iTree ， 该 算法 的 鲁 棒 性 得 到 了 的 流 特征 如 下 : 每 条 流 的 用 户 IP、 连 接 时 间 、 持 续 时 间 、 协 议 
较 大 的 提高 。 类 型 、 出 流量 大 小 、 出 流量 峰值 、 出 流量 均值 、 入 流量 大 小 、 

王 燕 晋 等 人 名 通过 构建 扳 立 森林 算法 和 二 又 树 模型 , 加 强 。” 入 流量 峰值 、 入 流量 均值 、 出 包 大 小 、 出 包 峰 值 、 出 包 均 值 、 


了 信息 数据 挖掘 、 检 测 、 识 别 过 程 的 运算 精准 度 , 但 该 方法 适 。 入 包 大 小 、 入 包 峰 值 、 入 包 均 值 等 。 
用 性 还 有 待 提高 。 肖 峰 多 提出 基于 孤立 森林 算法 的 计算 机 网 络 此 外 ,原始 数据 中 存在 一 些 列 的 属性 为 字符 串 例如 TCP、 
潜在 攻击 检测 方法 ,对 提取 的 计算 机 网 络 潜在 攻击 谱 特 征 进行 。 IP 等 , 这 些 字符 串 类 型 的 数据 是 没 办 法 进行 训练 的 , 需要 通过 
聚 类 分 析 , 结合 孤立 森林 学 习 算法 实现 攻击 检测 , 但 算法 检测 个 详细 的 对 应 表 将 这 些 字符 串 类 型 的 属性 转换 为 离散 的 数 
时 效 性 还 有 待 提高 。 徐 迪 等 人 WI 针对 配 电 网 线 损 异常 检测 问题 。 字 并 进行 归 一 化 。 图 1 为 数据 预 处 理 流程 图 。 
提出 了 一 种 基于 聚 类 和 孤立 森林 算法 的 检测 方法 ,但 本 方法 预 
设 了 线 损 异常 的 概率 已 知 ,概率 未 知 时 的 线 损 异常 判定 问题 需 
预 处 理 为 CSV 文 件 


要 进一步 研究 。 杨 晓 晖 等 人 外 提出 了 基于 随机 超 平面 的 隔离 机 
制 和 多 粒度 扫描 机 制 ， 使 改进 的 孤立 森林 算法 对 复杂 异常 数 
据 模 式 有 更 好 的 稳健 性 。 但 由 于 未 考虑 到 关联 属性 特性 , 增加 
了 算法 的 不 确定 性 。 李 倩 等 人 中 提出 了 一 种 基于 模糊 孤立 森林 
算法 的 数据 异常 检测 方法 ,有 效 地 解决 了 样本 数据 对 于 每 一 属 
性 的 异常 程度 不 同 的 问题 , 但 增加 了 时 间 开 销 。 赵 召 等 人 00 提 
出 了 一 种 基于 模糊 聚 类 和 孤立 森林 的 异常 检测 方法 ,适用 于 实 
际 数据 集中 异常 点 较 少 的 用 电 数 据 异 常 检 测 , 但 对 于 异常 点 较 


多 的 数据 适用 效果 较 差 。 李 新 鹏 等 人 0 提出 一 种 根据 异常 偏 结束 
差 率 大 小 科 选 子 森 林 异 常 检 测 器 的 更 新 策略 ,解决 因 模型 随机 
更 新 导致 异常 检测 器 整体 性 能 下 降 的 问题 ,但 该 方法 的 综合 性 到 1 数据 预 处 理 流程 区 


能 及 适用 性 还 有 待 提 高 。 Fig.1 Flow chart of data preprocessing 
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2.2 ”改进 的 iForest 算法 
Forest 算法 复杂 度 较 低 , 但 该 算法 仅 对 全 局 稀 玻 性 敏感 ， 


不 善于 处 理 局 部 相对 


T 


} 稀 琉 点 。 由 于 人 为 引入 了 随机 因素 , 算法 


数据 。 由 于 每 次 切 


存在 精度 低 和 稳定 性 


数 扩 


差 等 问题 。iForest 不 适用 于 特别 高 维 的 
居 空 间 都 是 随机 选取 一 个 维度 , 建 完 树 后 


仍然 有 大 量 的 维度 信息 没有 被 使 用 ,导致 算法 可 靠 性 降低 。 高 


维 空 间 还 可 能 存在 大 量 噪声 维度 或 无 关 维度 ， 影 响 树 的 构建 。 


针对 算法 的 特点 , 本 文 对 下 orest 算法 进行 了 改进 ,改进 下 orest 


算法 的 具体 步骤 如 下 : 


a) 随 机 选择 数据 子 集 。 和 原始 的 下 orest 算法 一 样 , 通过 随 
机 抽样 的 方式 从 数据 集 中 选取 n 个 样本 构成 若干 个 数据 子 


集 D={d,d,……d,} ， 放 入 树 的 根 节点 。 


b) 通 过 分 割 建立 iee 。 不 断 地 分 割 数 据 子 集 D 最 终 形成 
一 颗 iTree ， 再 由 多 棵 i7ree 组 成 森林 Forest 。 原 始 的 orest 算 


法 在 构建 imee 的 过 程 中 每 次 分 割 由 随机 选取 的 一 个 属性 X 和 


一 个 分 离 值 ?来 决定 
来 检测 时 ,仅仅 选 


,然而 当 异 党 需要 通过 同时 考虑 多 个 属性 


取 个 别 属性 来 分 离异 常 效果 很 差 。 因此 ， 本 


文 引入 与 原 属 性 非 轴 平行 的 随机 超 平 面 来 进行 分 割 。 在 每 个 节 


点 中 , 给 定 足 够 的 随机 生成 超 平面 的 实验 , 最 终 能 够 产生 一 个 


足够 好 的 超 平面 。 


尽管 单个 超 平面 可 能 不 是 最 优 的 , 但 由 于 
成 学 习 器 的 聚集 能 力 ， 所 得 模型 作为 一 个 整体 仍然 是 高 效 的 。 
具体 实现 为, 在 构造 树 的 每 一 次 分 割 中 , 利用 随机 生成 的 超 平 
和 i 构造 一 个 分 离 超 平 


7 


下 


看 上 。 的 表述 如 下 : 


X 
二 pe 
= 上 


其 中 2 有 4 个 属性 指标 ， 从 {1,2,…,a 


中 随机 选取 而 不 替换 ，5 


是 一 个 系数 , 在 说 之 间 随 机 选取 ; 总 是 和 的 第 7 个 属性 值 ， 
o() 计算 标准 差 。 这 个 树 构建 过 程 继续 递归 地 处 理 过 滤 后 的 子 


林 Forest 。 


c) 判 断 异 常数 


集 ， 直到 子 集 的 大 小 小 于 或 等 于 2。 构建 多 棵 i7ree 后 , 组 成 森 


昌 点 。 让 orest 算法 由 叶子 节点 到 树 根 节点 的 


距离 来 计算 异常 值 ， 判 断 异常 点 。 在 下 orest 中 ， 样 本 点 4 的 
路 径 长 度 Ko) 为 从 孤立 树 的 根 节点 到 叶子 节点 所 经 过 的 边 的 
数量 。 给 定 一 个 包含 4 个 样本 的 数据 集 , 树 的 平均 路 径 长 度 为 


算 公 式 如 下 。 


定义 为 


ce 


从 式 (2) 中 可 以 看 日 


上 
LI 


的 得 分 > 都 在 0.5 左右 时 ， 样 本 中 没有 明显 的 异常 值 。 当 
EC(O) 一 0 时 ，s 一 1， 该 对 象 是 一 个 异常 值 。 当 ED) 一 2-1 
时 ，s 一 0， 该 对 象 是 正常 值 。 
改进 的 下 orest 使 用 一 个 简单 而 有 效 的 机 制 ， 在 构造 imee 


(=24(n-D)- My O) 


中 cln) 为 给 定 样本 数 4 时, 路径 长 度 的 平均 值 。#01-D 的 计 


Hn-D)=In(n-D+e (3) 


其 中 < 为 欧 拉 常数 ， 约 为 0.5772。 样 本 a 的 下 orest 异常 得 分 


E(h(a)) 


Ss(a,n)=2 “0 (4) 


其 中 ，h(@) 表示 样本 点 4 从 孤立 树 的 根 节点 到 叶子 节点 所 经 过 
的 边 的 数量 ， E(h(Q)) 是 样本 a 在 一 批 狐 立 树 中 ha) 的 平均 值 。 


当 Ex(o) 一 coD) 时 ，s 一 0.5 ， 即 当 所 有 点 


的 过 程 中 引入 了 随机 超 平面 


当 异 常 检 测 依 赖 于 多 个 属性 时 ， 


在 超 平面 中 使 用 更 多 


2.3 改进 的 LOF 


算法 


的 属性 可 以 获得 更 好 的 检测 性 能 。 


LOF 算法 的 


\ 体 


步骤 如 下 : 


a) 对 于 每 一 个 数据 点 , 计算 它 与 其 他 数据 点 间 的 欧式 距离 


dist(d,d) ， 


b) 对 于 每 一 个 数据 点 , 计算 距离 k_dist(4) : 将 数据 点 4 
到 其 他 数据 点 的 距离 按 从 小 到 大 排序 , 数据 点 到 第 上 个 数据 点 


的 距离 即 为 x 距离 。 
0c) 对 于 每 一 个 数据 点 , 找到 它 的 距离 邻 域 N(4) : 到 数据 
点 di 的 距离 小 于 k_dist(4) 的 数据 点 集合 。 
dj) 计算 第 可 达 距 离 reaach_disu(d,q) : 数据 点 di 的 距离 
和 数据 点 4 到 数据 点 4; 之 间距 离 的 最 大 值 。 
reach _dist, (d,,d;) (5) 
=max{K _dist(d,),dist(d,,d,)} 
eo) 计 算 局 部 可 达 密 度 di(4) : 数据 点 a 的 距离 邻 域内 的 
所 有 数据 点 到 数据 点 4 的 平均 可 达 距 离 的 倒数 。 


lrdi(d;)= 


/| (6) 


WACA) 


计算 局 部 离 群 因 子 LOF(4) :数据 点 a 的 距离 邻 域 中 所 
点 的 局 部 可 达 密 度 与 数据 点 di 的 局 部 可 达 密 度 之 比 的 平均 数 。 
lrdi(d,) 
Sniraa) (7) 
[N(ai)| 


LOF(d,)= 


多 根据 局 部 离 群 因子 ， 判 断 异 常 点 。 最 终 得 到 的 LOF(4d) 
既是 数据 点 4d; 的 异常 值 。 
使 用 LOF 算法 求 出 对 象 的 LOF 值 ， 通 过 判断 LOF 是 否 
近似 于 1 来 确定 离 群 度 。 如 果 LOF 远 远 大 于 1， 则 认为 是 离 
群 值 ; 反之 ， 如 果 接 近 于 1， 则 认为 是 正常 点 。LOF 值 的 计算 
可 以 根据 定义 得 到 , 但 随 着 实例 数量 的 增加 , 计算 成 本 也 不 断 
增加 ， 到 达 普 通用 户 难以 接受 的 程度 。 因 此 ， 本 文 改 进 LOF 算 
法 ， 首 先 通过 聚 类 来 排除 部 分 正常 点 ， 然 后 在 剩 下 的 集合 中 计算 
LOF 。 在 保证 正确 率 的 前 提 下 大 大 节省 了 时 间 ， 有 具体 过 程 如 下 。 
首先 ， 随机 选取 个 点 做 为 初始 聚集 的 簇 心 4=@,@,…,&， 
分 别 计算 每 个 样本 点 到 个 艇 核心 的 距离 ,找到 离 该 点 最 近 的 
复核 心 ,将 它 归 属 到 对 应 的 簇 ， 所 有 点 都 归属 到 艇 之 后 ， 数 据 
集 就 分 为 了 7 个 簇 。 然后 ,针对 每 个 徐 心 a;， 重新 计算 每 个 簇 
的 重心 ， 将 其 定 为 新 的 簇 心 。 


1 
We (8) 


其 中 “ 表示 艇 心 «所 在 簇 的 一 点 。 反 复 迭 代 改 变 簇 心 的 位 置 ， 
直到 聚 类 中 心 的 距离 变化 小 于 设 定 的 阔 值 。 最 后 ,计算 聚 类 内 
部 点 到 聚 类 中 心 的 距离 s(c,a) ， 并 将 距离 按照 从 小 到 大 排序 ， 
按 比例 2 筛选 出 距离 聚 类 中 心 最 近 的 点 ,作为 聚 类 中 心 密集 点 ， 
9 的 取 值 范围 为 [0, 0.5]。 在 本 实验 中 ，09 设置 为 0.2。 

对 于 聚 类 中 心 密集 点 , 由 于 接近 中 心 且 较为 密集 , 它们 的 
LOF 值 近似 为 1, 不 是 值得 关注 的 离 群 点 , 因此 将 它们 的 LOF 
值 标 记 为 1， 将 其 余 点 标记 为 噪声 点 ， 并 对 噪声 点 进行 进一步 
的 分 析 处 理 。 最 后 在 剩余 噪声 点 组 成 的 数据 集 上 使 用 LOF 算 
法 ， 通 过 式 (7) 计 算 LOF 值 ， 找 出 异常 点 。 

改进 的 LOF 算法 输入 为 数据 集 D ,邻居 数 ,输出 异常 
点 90。 对 于 每 个 噪声 数据 点 ， 进 行 k 个 邻居 查询 ， 得 到 个 邻 
居 , 各 数据 对 象 的 局 部 离 群 因子 可 由 式 (7) 求 得 ; 对 计算 得 到 辫 
局 部 离 群 因 子 进行 降序 排序 ， 前 4 个 数据 点 为 异常 点 。 
2.4 结果 融合 

算法 的 整体 流程 如 图 2 所 示 。 将 改进 后 的 下 orest 和 LOF 
两 个 算法 输出 的 结果 映射 到 同一 空间 并 计算 得 出 最 终 的 异常 
值 。 判断 所 考察 数据 点 是 否 为 异常 点 , 需要 从 其 在 全 局 数据 空 
间 所 处 位 置 以 及 邻 域 密度 差异 两 方面 来 考虑 。iForest 根据 数 
据 全 局 信息 计算 数据 点 异常 分 数 ，LOF 根据 数据 点 邻 域 信息 
计算 lof 值 ， 因 此 ， 本 方法 从 数据 点 的 全 局 分 布下 的 异常 信息 
以 及 局 部 离 群 程度 来 综合 确定 最 终 离 群 点 结合 两 个 算法 所 得 
数据 点 4 的 异常 分 数 s_iforest(a) 以 及 s_iof(a) ， 分 别 计算 它们 
的 Z-score 值 ， 将 它们 标准 化 到 同一 空间 。 
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zs _iforest(a)= 
$s_iforest(a)—mean _iforest 
std _iforest 


Ss_lof (a)—mean_lof 


iof (0)= std of 


值 范围 区 间 [0.6, 0.8]。 


ry 


score(a)=(1— PB)*zs_iforest(a)+B*zs_lof (a) 


开始 


数据 预 处 理 


改进 的 IForest 改进 的 LOF 


图 2 算法 流程 图 


Fig.2 Flow chart of algorithm 


(9) 


(10) 


a 中 ， mean_iForest std_iForest 、 mean_lof ~ sid_lof 分 别 是 各 
自 算法 结果 中 所 有 异常 值 的 均值 与 标准 差 。 最 后 ， 根 提 
计算 得 到 数据 点 4 最 终 的 异常 值 score(a) 。 其 中 ， 


居 式 (11) 


8 为 融合 权 


， 由 于 LOF 算法 检测 更 精确 ， 具 有 更 高 可 信和 度 ， 且 孤立 森 


林 算 法 具有 随机 性 ， 经 过 实验 验证 ， 赋 予 lof 值 较 大 权重 ， 取 


(41D) 


最 后 输出 所 有 用 户 的 异常 值 , 并 从 大 到 小 进行 排序 。 排 名 


越 靠 前 用 户 越 有 可 能 是 异常 用 户 。 


3 实验 


与 结果 分 析 


3.1 实验 细节 


实验 


Windows 10,CPU 为 17-10700。 


3.2 ”实验 数据 
本 文 所 用 到 的 数据 集 是 从 本 实验 室 出 口交 换 机 自行 收集 


得 到 的 真实 | 


上 网 流量 , 包含 120 个 上 网 节点 。 初 始 原始 


的 模型 均 是 用 python 3.6 实现 ， 实 验 环 境 为 


10GB 的 pcap 格式 文件 ， 经 过 流 处 理 程序 处 理 ， 将 每 个 pcap 


文件 中 的 数据 包 (packet) 以 流 (flow) 为 单位 进行 归 


n 维 流 特征 


? 


提取 出 


言 息 ， 每 条 流 的 用 户 PP、 连 接 时 间 、 出 流量 大 小 、 


出 流量 峰值 、 出 流量 均值 、 入 流量 大 小 、 入 流量 峰值 、 入 流量 


3.3 ”实验 结果 与 分 析 
由 于 收集 的 真实 数据 集 没有 标签 ,所 以 本 算法 为 无 监督 算 
法 ,将 数据 集 放 入 模型 中 , 分 别 对 原始 下 orest 算法 、 原始 LOF 
算法 和 本 文 所 提 算 法 进行 测试 ， 结 果 如 表 1 所 示 。 
表 1 实验 结 
Tab. 1 Experimental result 


源 人 P 原始 iForest 得 分 原始 LOF 得 分 本 文 融合 方法 得 分 


192.168.0.236 4.3901 4.5328 4.5043 
192.168.0.31 -0.4557 4.7656 3.7213 
192.168.0.247 3.9187 3.5272 3.6055 
192.168.0.193 1.9801 2.9107 2.7246 
192.168.0.222 0.6344 2.5291 2.1502 
192.168.0.158 0.9179 1.0917 1.0569 
192.168.0.42 1.7536 0.3421 0.6244 
192.168.0.88 2.8016 -0.2931 0.3258 
192.168.0.196 0.5853 -0.0250 0.0971 
192.168.0.181 1.3229 -0.3214 0.0075 


从 表 1 可 以 看 出 ,原始 下 orest 算法 和 原始 LOF 算法 的 结 
果 有 较 大 差别 ， 对 于 部 分 相同 源 卫 的 异常 流量 检测 结果 相差 
较 大 ， 比 如 对 于 源 IP192.168.0.31， 原 始 下 orest 算法 得 到 的 得 
分 为 负 ， 这 说 明 该 算法 认为 该 用 户 为 异常 用 户 的 可 能 性 很 低 ; 
而 原始 LOF 算法 计算 出 的 异常 得 分 却 很 高 ， 认 为 该 用 户 极 
可 能 是 异常 用 户 。 这 是 由 于 iForest 是 根据 数据 全 局 信息 计算 
数据 点 异常 分 数 , 而 LOF 根据 数据 点 邻 域 信息 计算 lof 值 。 单 
一 的 异常 检测 方法 对 所 有 数据 采用 同一 种 异常 标准 ,这 就 导致 
无 法 综合 考虑 数据 的 全 局 和 局 部 信息 。 当 大 规模 多 维 数据 身 
正常 点 与 离 群 点 的 比例 极其 不 平衡 时 , 采用 统一 标准 的 单一 异 
常 检 测 方法 无 法 准确 检测 出 异常 点 。 

通过 本 方法 融合 二 者 结果 ， 既 利用 了 下 orest 算法 对 全 
数据 空间 处 理 的 优势 ， 也 发 挥 了 LOF 算法 对 邻 域 密度 处 理 的 
优势 ,结合 数据 的 全 局 异常 信息 以 及 局 部 离 群 程度 来 综合 确定 
异常 点 , 提高 了 异常 数据 的 检测 精度 。 最 终 得 到 的 异常 分 数 与 
异常 用 户 排 名 更 加 合理 。 

将 最 终 异 常 得 分 归 一 化 后 通过 抖动 图 可 视 化 如 图 4 所 示 。 

抖动 图 将 每 个 数据 点 从 原始 位 置 移动 一 个 小 的 随机 数 ， 
目的 是 确保 没有 两 个 点 完全 落 在 彼此 之 上 。 图 4 中 每 一 个 点 
代表 一 个 源 IP 即 用 户 ， 横 轴 表 示 归 一 化 后 的 异常 得 分 ， 得 分 
接近 1 表示 算法 认为 该 用 户 有 很 大 几率 是 异常 用 户 ， 在 图 中 
表现 为 靠近 右 侧 ; 而 得 分 接近 0 则 表示 算法 认为 该 用 户 有 很 
大 几率 是 正常 用 户 ， 在 图 中 表现 为 靠近 左 侧 。 

由 图 4 可 以 看 出 ， 异 常 得 分 较 高 的 点 即 潜在 异常 用 户 分 
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均值 、 出 包 大 小 、 出 包 峰 值 、 出 包 均 值 、 入 包 大 小 、 入 包 峰 值 、 
入 包 均 值 等 。 本 次 实验 截取 了 2021 年 6 月 28 日 24 小 时 的 数 
据 ， 包 含 一 干 万 条 数据 信息 。 部 分 流量 日 志 截 图 如 图 3 所 示 


time siP dip outlen inlen outlenl inlenl maxoutlen maxinlen 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 15241 28618 15177 28618 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 14334 13271 14334 13215 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 439 511 439 433 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 6881 4280 6680 4280 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 3776 9195 3707 9195 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 5196 8466 4966 8466 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 6513 0 6461 0 
2021/6/28 6:51 192.168.0. 172.17.0.1 56 0 208 208 208 156 
2021/6/28 6:51 192.168.0. 183.236.55 0 1500 104 0 52 0 
2021/6/28 6:51 192.168.0. 183.236.55 0 974 5191 2212 5191 2172 
2021/6/28 6:51 192.168.0. 183.236.55 40 0 6975 8138 6975 8098 
2021/6/28 6:51 192.168.0. 120.241.1; 0 137 4430 1633 4378 1633 
2021/6/28 6:51 192.168.0. 183.236.55 553 0 8596 8404 8431 8404 
2021/6/28 6:51 192.168.0. 183.236.55 998 0 2066 3043 1982 3043 
2021/6/28 6:51 192.168.0. 183.236.55 1001 0 626 0 586 0 
2021/6/28 6:51 192.168.0. 121.51.14] 40 0 1787 1594 1691 1594 
2021/6/28 6:51 192.168.0. 52.109,76. 0 40 9837 12740 9837 12603 
2021/6/28 6:51 192.168.0. 52.109.76 40 0 4359 1777 4311 1777 


图 3 部 分 流量 日 志 截 图 
Fig.3 Screenshot of partial network flow log 


布 稀疏 , 而 异常 得 分 较 低 的 正常 点 聚集 在 图 片 的 左 侧 。 这 说 明 


本 方法 能 够 较为 明显 从 流量 日 志 中 分 离 出 的 异常 用 户 。 
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图 4 异常 得 分 抖动 图 


Fig.4 Jitter diagram of abnormal Score 
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较 。 其中，CBLOF 算法 是 基于 聚 
类 思想 分 离 出 异常 点 ,在 实验 中 表现 


类 的 LOF 入 


法 ,通过 引入 聚 
出 较 好 的 效果 。 HBOS 算 
法 是 一 种 单 变 量 方法 的 组 合 , 对 大 数据 集 友好 , 在 全 局 异常 


以 


形状 , 因此 对 于 强 非 高 斯 数据 有 更 加 优秀 的 效果 。 
的 算法 运用 到 标注 后 的 数据 身 


nt 


不 同 算法 下 的 ROC 曲线 和 对 应 的 AUC 值 。 该 
假 阳 性 率 (False Positive Rate, FPR)， 
Positive Rate, TPR)。 其 中 AUC 为 ROC 曲线 下 方 的 
通过 比较 4UC 的 大 小 来 评估 算法 的 性 能 。 ROC 上 
于 y=* 这 条 线 的 上 方 , 所 
于 1.0， 则 说 明 算 法 的 精确 度 越 高 。 


线 一 般 


0 一 
0.8 
Ea 
名 
r0.6 
由 
它 
加 
8 
全 
yw 0.4 
EE 
0.2 
-- iForest ROC (area = 0.81) 
LOF ROC (area = 0.79) 
0.0 — OURS ROC (area = 0.86) 
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图 5 三 种 算法 的 ROC 曲线 图 


Fig.5 ROC curves oftrhee algorithms 
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图 6 四 种 算法 的 ROC 曲线 图 


Fig.6 ROC curves of four algorithms 


多 
值 高 于 LOF 算法 。 在 横 轴 的 假 


原始 LOF 
的 假 阳 性 率 达 到 0.4 时 , 其 余 三 种 无 监督 异常 
日 性 率 则 在 70% 到 80% 之 间 。 
同 数据 集 下 ， 本 文 提 


ul 


测 问题 上 表现 良好 。OneClassSVM 算法 有 能 力 捕获 数据 集 的 
将 六 种 不 同 
进行 测试 .图 5 与 6 给 出 了 6 种 
线 的 横 坐 村 
纵 坐 标 为 真 阳 性 率 (True 
再 积 ， | 


、 
局 大 


可 以 
会 位 


以 AUC 的 值 为 0.5~1.0，AUC 越 接 近 


到 5 可 以 看 出 ， 本 方法 的 AUC 值 整体 高 于 两 个 原始 算 
三 种 无 监督 异常 检测 算法 ， 而 下 orest 算法 的 AUC 
阳性 率 达 到 0.4 时 ， 本 方法 纵 
的 真 阳性 率 就 已 经 接近 100%, 而 原始 下 orest 的 真 阳性 率 为 
仅 为 85% 左 右 。 从 图 6 可 以 看 出 ， 在 横 
检测 算法 的 真 
通过 上 述 分 析 可 以 得 出 ， 在 相 
出 的 算法 相 比 于 原始 下 orest 和 原始 LOF 


法 应 用 于 流量 异常 检测 上 具有 更 高 的 精确 度 , 证 明 本 文 所 提 


方法 更 加 适用 
4 ”结束 语 


于 流量 异常 检测 分 析 。 


在 真实 网 络 环境 中 进行 流量 异常 的 检测 ,往往 面临 着 流量 


数据 规模 较 大 和 缺乏 有 效 标注 数据 这 


个 挑战 性 问题 。 因 此 下 


究 一 种 基于 无 监督 学 习 的 快速 流量 异常 检测 方法 ,能 够 处 理 


规模 的 高 维 流量 数据 ， 是 本 文 的 研究 目标 。 


大 


针对 这 一 目标 ， 本文 提出 了 一 种 基于 下 orest 和 LOF 的 改 
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为 了 更 加 精确 地 衡量 算法 的 精确 性 ,对 用 数据 集中 异常 源 。” 进 型 流量 异常 检测 方法 。 该 方法 对 原始 下 orest 和 LOF 算法 进 
IP 进行 标注 ， 数 据 集 共 有 225 个 有 效用 户 数 据 ， 其 中 包含 17 行 改进 并 对 结果 进行 融合 ,在 一 定 程度 上 弥补 了 两 种 算法 的 缺 
个 异常 用 户 ,异常 用 户 占 比 为 7.56%。 为 了 体现 本 文 所 提 算 法 点 并 保留 了 优点 , 最 后 通过 实验 验证 了 该 方法 的 可 行 性 和 有 效 
的 优势 , 除了 原始 下 orest 与 原始 LOF 算法 , 还 同 CBLOF091、 性 。 但 该 方法 还 存在 运行 时 间 较 长 的 问题 , 因此 笔者 下 一 步 的 
HBOSPO、 OneClassSVM ”这 三 种 无 监督 异 异常 检测 算法 进行 比 研究 方向 是 如 何 提升 算法 的 运行 效率 。 


参考 文献 : 


[1] 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


[10] 赵 召 ， 李 英 娜 ， 李 川 ， 


[11] 


李 杰 铃 ， 张 浩 . 半 监 督 异 常 流量 检测 研究 综述 [四 . 小 型 微型 计算 机 
系统 , 2020, 41 (11): 2371-2379. (Li Jieling, Zhang Hao. Survey on semi- 
supervised anomaly traffic detection [J]. Journal of Chinese Computer 
Systems, 2020, 41 (11): 2371-2379.) 

Liu F T, Ting K M, Zhou Z H, “Isolation Forest, 
2008 8th IEEE International Conference on Data Mining. IEEE Computer 
Society, 2008, pp. 413—422. 

Breunig M M, Kriegel HP Ng R T, et al. “LOF: Identifying Density-based 
Local Outliers, “in Proceedings of the 2000 ACM SIGMOD International 
Conference on Management of Data. ACM, 2000, pp. 93—104. 


”in Proceedings of the 


Bay S D, Schwabacher M, “Mining Distance-based Outliers in Near Linear 
Time with Randomization and a Simple Pruning Rule, “in Proceedings of 
the 9th ACM SIGKDD International Conference on Knowledge Discovery 
and Data Mining. ACM, 2003, pp. 29—38. 
王 燕 晋 , 易 忠 林 ，, 郑 思 达 , 等 . 基于 孤立 森林 算法 的 电力 用 户 数据 异 
常 快速 识别 研究 [加 . 电子 设计 工程 , 2022, 30 (03): 11-14+19. DOI: 10. 
14022/j. issn1674-6236. 2022. 03. 003. (Wang Yanjin, Yi Zhonglin, Zheng 
Sida, et al. Research on fast identification of power user data abnormal 
based on isolation forest algorithm [J]. Electronic Design Engineering, 
2022, 30 (03): 11-14+19. DOI: 10. 14022/). issn1674-6236. 2022. 03. 003.) 
肖 峰 . 基于 孤立 森林 算法 的 计算 机 网 络 潜在 攻击 检测 方法 [J]. 河北 
北方 学 院 学 报 (自然 科学 版 ) ，2021, 37 (11): 13-18. (Xiao Feng. 
Detection method of potential attack on computer network based on 
Isolated Forest algorithm [J]. Journal of Hebei North University (Natural 
Science Edition) , 2021, 37 13-18.) 

陆 煜 锌 ， 肖 勇 , 等 . 基于 孤立 森林 算法 的 配 电 网 线 损 异 常 判 定 
加 ]. 兴 为 系 ie 2021, 49 (16): 12-18. DOI: 10. 19783/. cnki. 
pspc. 201267. (Xu di, Lu Yuxin，Xiao Yong, et al. Identification of 
abnormal line loss for a distribution power network based on an isolation 
forest algorithm [J]. Power System Protection and Control, 2021, 49 (16): 
12-18. DOI: 10. 19783/j. cnki. pspc. 201267.) 
杨 晓 晖 ， 张 圣 昌 . 基于 多 粒度 级 联 弧 立 森 林 算 法 的 异常 检测 模型 [J]. 
通信 学 报 , 2019, 40 (08): 133-142. (Yang Xiaohui, Zhang Shengchang. 
Anomaly detection model based on multi-grained cascade isolation forest 
algorithm [J]. Journal on Communications, 2019, 40 (08): 133-142.) 
李 倩 ， 韩 斌 , 汪 旭 祥 . 基于 模糊 孤立 森林 算法 的 多 维 数据 异常 检测 方 
法 加 . 计算 机 与 数字 工程 , 2020, 48 (04): 862-866. (Li Qian, Han Bin, 
Wang Xuxiang. Multidimensional data anomaly detection method based on 
fuzzy Isolated Forest algorithm [J]. Computer & Digital Engineering, 2020, 
48 (04): 862-866.) 
等 . 基于 模糊 聚 类 和 孤立 森林 的 用 电 数 据 异常 
检测 站. 陕西 理工 大 学 学 报 (自然 科学 版 ) ,2020, 36 (04): 38-43. 
(Zhao Man, Li Yingna, Li Chuan, et al. Anomaly detection of power 
consumption data based on fuzzy clustering and Isolated Forest [J]. Journal 
of Shaanxi University of Technology (Natural Science Edition) , 2020, 36 
(04): 38-43.) 
李 新 胸 ,高 欣 , 阎 博 , 等 . 基于 孤立 森林 算法 的 电力 调度 流 数 据 异常 
检测 方法 [J]. ws 2019, 43 (04): 1447-1456. DOI: 10. 13335/j. 
1000-3673. pst. 2018. 0765. (Li Xinpeng, Gao Xin, Yan Bo, et al. An 
approach of data anomaly detection in power dispatching streaming data 


based on Isolation Forest algorithm [J]. Power System Technology, 2019, 


202206.00064v1 


chinaXiv 


43 (04): 1447-1456. DOI: 10. 13335/j. 1000-3673. pst. 2018. 0765.) 

[12] 王 巨 泊 ， 蔡 嘉 辉 , 王 现 , 等 . 基于 KNN 与 LOF 算法 的 台 区 线 损 异常 检 
测 四. 电工 技术 , 2021 (24): 175-177. DOI: 10. 19768/j. cnki. dgjs. 2021. 24. 
059. (Wang Juhao, Cai Jiahui, Wang Kun, et al. Detection of abnormal line loss 
in station area based on KNN and LOF algorithm [J]. Electric Engineering, 2021 
(24): 175-177. DOT: 10. 19768/i. cnki. dgjs. 2021. 24. 059.) 

[13] 刘 芳 ,， 齐 建 胸 ,于 彦 伟 ,等 . 基于 密度 的 Top-n 局 部 异常 点 快速 检测 
算法 [J]. 自动 化 学 报 , 2019, 45 (9): 1756-1771. (Liu Fang, Qi Jianpeng, 
Yu Yanwei, et al. A fast algorithm for density-based Top-n Local Outlier 
Detection [J].ACTA AUTOMATICA SINICA, 2019, 45 (9): 1756-1771.) 

[14] 曾 冬 洲 ， 郑 宗 华 . 基于 局 部 离 群 因子 算法 的 变压器 异常 检测 [加 电 
气 开 关 , 2021, 59 (02): 12-15+20. (Zeng Dongzhou, Zheng Zonghua. 


Transformer anomaly detection based on Local Outlier Factor algorithm [J]. 


Electric Switchgear, 2021, 59 (02): 12-15+20.) 

[15] 司 方 远 , 韩 英 华 ,赵强 , 等 . 基于 AP-LOF 离 群 组 检测 的 配 电网 连接 验 
证 [J]. 东北 大 学 学 报 (自然 科学 版 ) , 2020, 41 (08): 1070-1074. (Si 
Fangyuan, Han Yinghua, Zhao Qiang, et al. Verification of distribution 
network connectivity based on AP-LOF outlier group detection [J]. Journal 
of Northeastern University (Natural Science) , 2020, 41 (08): 1070-1074.) 

[16] Xu Z, Kakde D, Chaudhuri A. Automatic Hyperparameter Tuning Method 


杭 菲 现 ， 等 : 基于 iForest 和 LOF 的 流量 异常 检测 


ChinaXiv 合 作 期 刊 
第 39 卷 第 10 期 


for Local Outlier Factor, with Applications to Anomaly Detection [J]. arXiv 
preprint arXiv: 190200567. 2019. 

[17] 优 开 ， 美 瑛 . 加 权 LOF 结合 上 下 文 判断 的 云 环境 中 服务 运行 数据 异常 
检测 方法 加 . 计算 机 工程 与 科学 , 2020, 42 (06): 951-958. (Qiu Kai， 
Jiang Ying. A service running data anomaly detection method based on 
weighted LOF and context judgment in cloud environment [J]. Computer 
Engineering & Science, 2020, 42 (06): 951-958.) 

[18] 痪 赛 烨 ， 林 有 果园， 顾 浩 , 等. 云 虚拟 机 异常 检测 场景 下 改进 的 LOF 算 
法 [J]. 计算 机 工程 与 应 用 , 2020, 56 (23): 80-86. (He Huanye, Lin 
Guoyuan, Gu Hao, et al. Inproved LOF algorithm in cloud virtual machine 
anomaly detection scenario [J]. Computer Engineering and Applications， 
2020, 56 (23): 80-86.) 

[19] He Z, Xu X, Deng S. Discovering cluster-based local outliers [J]. Pattern 
recognition letters, 2003, 24 (9-10): 1641-1650. 

[20] Goldstein M, Dengel A. Histogram-based outlier score (hbos): A fast 
unsupervised anomaly detection algorithm [J]. KI-2012: poster and demo 
track, 2012, 9. 

[21] Chen Y, Zhou X S, Huang T S. One-class SVM for learning in image 
retrieval [Cl]// Proceedings 2001 International Conference on Image 
Processing (Cat. No. 01CH37205) . IEEE, 2001, 1: 34-37. 


